pdf转word 您所在的位置:网站首页 PDF转word 乱码 pdf转word

pdf转word

2023-04-08 12:36| 来源: 网络整理| 查看: 265

就一般使用者的理解,pdf可以分为两种,一种是图片版pdf,一种是文字版pdf。图片版pdf,比较典型的是通过扫描得到的pdf文件,特点是每张pdf就是一张图片,上面的文字信息是不可直接复制的,如下图。

文字版pdf,一般是由word、indesign等图文排版编辑软件生成的,特点是pdf页面非常清晰,文本可以直接复制,并粘贴到word中。可以直接复制的表现为,可以使用文本工具直接在pdf选取文本。如下图。

我们拿到一份pdf,不仅是看,而且往往是想获得其中的内容的。能够直接复制的文本型pdf当然是最容易获得文本信息的,但有时候仍会碰到这样的情况:在pdf文件中选取文本,粘贴到其他软件,如word中时,却出现了乱码。下面列举我遇到的两次这样的情况,以供参考。

情况一

文本在pdf中呈现得很清晰,很正常。但当用文本工具选取时,却没有出现正常的浅蓝底色的选中状态,出现的是浅蓝色不整齐的下划线的状态。粘贴到word里,显示都是非常奇怪的毫无关联的字符,且是行数明显多于原文本。直接转换为word也是这样的。

情况二

这是一段俄文。文本在pdf中呈现得很清晰,很正常。用文本工具选取时,出现正常的浅蓝底色的选中状态。粘贴到word里,显示的却几乎都是方框,有一些英文字母和数字是正确的。直接转换为word也是这样的。你可能会认为是字体的问题,但是更换了几种支持俄文的字体后,情况仍然没有变化。应该不是字体的问题。

pdf文本粘贴出来后文本乱码的问题,其本质应该是文字符号编码的问题。在Louis Tong非常专业的回答中有一些详细说明,链接如下

了解文字编码的人应该可以很好地理解并解决这个问题,不过肯定是需要掌握一些比较专业的知识。对于普通的图文工作者来说,这是很难办到的。

所以遇到这种情况,最简单粗暴的方法仍然是使用OCR软件进行识别,就像对待图片型pdf一样。因为这种pdf都很清晰,所以OCR识别也可以得到令人满意的结果。

OCR是指光学字符识别技术,比较著名的软件有ABBYY FineReader。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有